智能论文笔记

A dataset for audio-video based vehicle speed estimation

Slobodan Djukanović , Nikola Bulatović , Ivana Čavor

分类：机器学习 | 计算机视觉

2022-12-03

Accurate speed estimation of road vehicles is important for several reasons. One is speed limit enforcement, which represents a crucial tool in decreasing traffic accidents and fatalities. Compared with other research areas and domains, the number of available datasets for vehicle speed estimation is still very limited. We present a dataset of on-road audio-video recordings of single vehicles passing by a camera at known speeds, maintained stable by the on-board cruise control. The dataset contains thirteen vehicles, selected to be as diverse as possible in terms of manufacturer, production year, engine type, power and transmission, resulting in a total of $ 400 $ annotated audio-video recordings. The dataset is fully available and intended as a public benchmark to facilitate research in audio-video vehicle speed estimation. In addition to the dataset, we propose a cross-validation strategy which can be used in a machine learning model for vehicle speed estimation. Two approaches to training-validation split of the dataset are proposed.

translated by 谷歌翻译

RIGA: Rotation-Invariant and Globally-Aware Descriptors for Point Cloud Registration

Hao Yu , Ji Hou , Zheng Qin , Mahdi Saleh , Ivan Shugurov , Kai Wang , Benjamin Busam , Slobodan Ilic

分类：计算机视觉

2022-09-27

成功的点云注册依赖于在强大的描述符上建立的准确对应关系。但是，现有的神经描述符要么利用旋转变化的主链，其性能在较大的旋转下下降，要么编码局部几何形状，而局部几何形状不太明显。为了解决这个问题，我们介绍Riga以学习由设计和全球了解的旋转不变的描述符。从稀疏局部区域的点对特征（PPF）中，旋转不变的局部几何形状被编码为几何描述符。随后，全球对3D结构和几何环境的认识都以旋转不变的方式合并。更具体地说，整个框架的3D结构首先由我们的全球PPF签名表示，从中学到了结构描述符，以帮助几何描述符感知本地区域以外的3D世界。然后将整个场景的几何上下文全局汇总到描述符中。最后，将稀疏区域的描述插值到密集的点描述符，从中提取对应关系进行注册。为了验证我们的方法，我们对对象和场景级数据进行了广泛的实验。在旋转较大的情况下，Riga就模型Net40的相对旋转误差而超过了最先进的方法8 \度，并将特征匹配的回忆提高了3DLOMATCH上的至少5个百分点。

translated by 谷歌翻译

Group Activity Recognition in Basketball Tracking Data -- Neural Embeddings in Team Sports (NETS)

Sandro Hauri , Slobodan Vucetic

分类：机器学习

2022-08-31

像许多团队运动一样，篮球涉及两组球员，他们从事合作和对抗性活动以赢得比赛。球员和团队正在执行各种复杂的策略，以比对手获得优势。定义，识别和分析不同类型的活动是体育分析中的一项重要任务，因为它可以导致球员和教练人员更好地策略和决策。本文的目的是自动识别篮球小组的活动，从跟踪代表玩家和球的位置的数据。我们在团队运动中提出了一种新颖的深度学习方法，以称为NETS。为了有效地对团队运动中的玩家关系进行建模，我们将基于变压器的体系结构与LSTM嵌入结合在一起，以及一个团队合并层以识别小组活动。培训这样的神经网络通常需要大量注释数据，这会产生高标签成本。为了解决手动标签的稀缺性，我们在自我监督的轨迹预测任务上生成弱标签并预处理神经网络。我们使用了从632个NBA游戏中的大型跟踪数据集来评估我们的方法。结果表明，NET能够以高准确性学习小组活动，并且网络中的自我监督训练对GAR的准确性产生了积极影响。

translated by 谷歌翻译

Multi-View Object Pose Refinement With Differentiable Renderer

Ivan Shugurov , Ivan Pavlov , Sergey Zakharov , Slobodan Ilic

分类：计算机视觉

2022-07-06

本文介绍了一种新型的多视图6 DOF对象姿势细化方法，重点是改进对合成数据训练的方法。它基于DPOD检测器，该检测器会在每个帧中产生密集的2D-3D对应关系。我们选择使用多个具有已知相机转换的帧，因为它允许通过可解释的ICP样损耗函数引入几何约束。损耗函数是通过可区分的渲染器实现的，并经过迭代进行了优化。我们还证明，仅根据合成数据训练的完整检测和完善管道可用于自动标记的真实数据。我们对linemod，caslusion，自制和YCB-V数据集执行定量评估，并与对合成和真实数据训练的最新方法相比，报告出色的性能。我们从经验上证明，我们的方法仅需要几个帧，并且可以在外部摄像机校准中关闭相机位置和噪音，从而使其实际用法更加容易且无处不在。

translated by 谷歌翻译

DPODv2: Dense Correspondence-Based 6 DoF Pose Estimation

Ivan Shugurov , Sergey Zakharov , Slobodan Ilic

分类：计算机视觉

2022-07-06

我们提出了一种称为DPODV2（密集姿势对象检测器）的三个阶段6 DOF对象检测方法，该方法依赖于致密的对应关系。我们将2D对象检测器与密集的对应关系网络和多视图姿势细化方法相结合，以估计完整的6 DOF姿势。与通常仅限于单眼RGB图像的其他深度学习方法不同，我们提出了一个统一的深度学习网络，允许使用不同的成像方式（RGB或DEPTH）。此外，我们提出了一种基于可区分渲染的新型姿势改进方法。主要概念是在多个视图中比较预测并渲染对应关系，以获得与所有视图中预测的对应关系一致的姿势。我们提出的方法对受控设置中的不同数据方式和培训数据类型进行了严格的评估。主要结论是，RGB在对应性估计中表现出色，而如果有良好的3D-3D对应关系，则深度有助于姿势精度。自然，他们的组合可以实现总体最佳性能。我们进行广泛的评估和消融研究，以分析和验证几个具有挑战性的数据集的结果。 DPODV2在所有这些方面都取得了出色的成果，同时仍然保持快速和可扩展性，独立于使用的数据模式和培训数据的类型

translated by 谷歌翻译

Learning Semi-Structured Representations of Radiology Reports

Tamara Katic , Martin Pavlovski , Danijela Sekulic , Slobodan Vucetic

分类：自然语言处理 | 机器学习

2021-12-20

除了主要的诊断目的之外，放射学报告一直是医学研究中的宝贵信息来源。鉴于放射学报告的语料，研究人员往往有兴趣识别描述特定医疗发现的报告子集。由于放射学报告中的医学发现的空间是巨大的并且可能是无限的，最近的研究提出了在放射学报告中的自由文本陈述，从有限词汇中采取的半结构化串。本文旨在提出一种方法，用于自动生成放射学报告的半结构化表示。该方法包括匹配从放射学报告的句子来手动创建半结构化表示，然后学习序列到序列神经模型，将匹配的句子映射到它们的半结构化表示。我们在手动注释的胸部X射线放射学报告的Openi语料上进行了评估了所提出的方法。结果表明，所提出的方法优于几个基线，无论如何（1）诸如BLEU，RUEGE和流星等定量措施和放射科学家的定性判断。结果还表明，培训的模型对来自不同医疗提供者的胸X射线放射学报告的样本型语料库产生合理的半结构化表示。

translated by 谷歌翻译

SSD-6D: Making RGB-based 3D detection and 6D pose estimation great again

Wadim Kehl , Fabian Manhardt , Federico Tombari , Slobodan Ilic , Nassir Navab

分类：

2017-11-27

We present a novel method for detecting 3D model instances and estimating their 6D poses from RGB data in a single shot. To this end, we extend the popular SSD paradigm to cover the full 6D pose space and train on synthetic model data only. Our approach competes or surpasses current state-of-the-art methods that leverage RGB-D data on multiple challenging datasets. Furthermore, our method produces these results at around 10Hz, which is many times faster than the related methods. For the sake of reproducibility, we make our trained networks and detection code publicly available. 1

translated by 谷歌翻译